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摘要 : [目的 /意义 ] 对 我 国 特有 的 以 CNMARC 格式 编目 的 中 文 古籍 书目 数据 进行 关联 数据 化 
发 布 研究 ， 促 进 中文 古 籍 的 开放 利用 。 [方法 /过 程 ] 利用 Drupal 平台 从 数据 建 模 、 数 据 映 
射 、 数 据 链 接 、 外 部 查看 几 方面 进行 了 对 中 文 古籍 书目 数据 发 布 为 关联 数据 的 过 程 进 行 了 实 
现 。 [结果 /结论 ] 通过 Drupal 平台 可 以 方便 地 进行 中 文 古籍 书目 数据 的 关联 化 发 布 ， 但 是 
也 存在 链接 不 完善 情况 ， 还 需 Drupal 功能 的 进一步 提升 和 与 其 他 链接 工具 的 使 用 。 
关键 词 : 中 文 古籍 ， 书目 数据 关联 数据 ; Drupal; CNMARC 
分 类 号 : G254 

在 五 千 多 年 的 社会 发 展 过 程 中 ， 我 国 形成 了 成 千 上 万 卷 的 古籍 ， 但 是 目前 我 国 图 书馆 所 
收藏 的 中 文 古籍 在 著录 时 ， 系 统 所 采用 的 仅 在 图 书馆 领域 通用 的 著录 格式 CNMARC 和 对 外 的 
基于 739. 50 协议 的 OPAC 检索 模式 严重 限制 了 古籍 的 利用 ， 且 检索 到 的 书目 数据 是 无 法 与 外 
部 数据 进行 链接 的 ， 只 是 一 个 封闭 的 数据 集 。 因 此 如 何 使 CNMARC 编目 的 中 文 古 籍 书 目 数 据 
对 外 开放 、 实 现 书目 数据 之 间 的 语义 链接 成 为 保存 古籍 的 图 书馆 咪 待 解决 的 问题 。 

但 是 我 国 中 文 古籍 书目 数据 的 语义 化 研究 方面 的 研究 目前 主要 集中 在 通过 本 体 对 古籍 知 
识 概念 、 知 识 元 的 语义 网 络 构建 、 古 籍 文献 语义 标注 的 细 粒 度 语 义理 论 研究 方面 ， 如 安 欢 呈 
对 中 医 养生 古籍 的 知识 概念 的 语义 网 络 构建 进行 了 研究 ， 高 明月 ”基于 本 体 构建 原则 对 《各 
急 千 金 要 方 》 的 语义 网 络 构建 进行 了 研究 。 但 是 古籍 书目 数据 本 身 的 语义 化 研究 迄今 为 止 一 
直 没 有 实践 性 进展 。 

2006 年 ， 关 联 数据 ”的 提出 以 及 随后 在 国外 图 书馆 和 各 个 机 构 、 企 业 的 成 功 实践 应 用 
《如 美国 国会 图 书馆 标题 表 的 关联 数据 发 布 ”、 德 国 国 家 图 书馆 书目 数据 和 规范 数据 的 关联 
数据 发 布 ”、BBC 的 关联 数据 发 布 “ 等) 为 实现 我 国 中 文 古籍 书目 数据 的 发 现 与 丰富 语义 链 
接 提供 了 一 种 思路 。 

关联 数据 作为 语义 网 的 一 个 简单 应 用 ， 主 要 利用 RDF 和 URI 技术 进行 数据 的 发 布 、 共 享 
和 链接 ， 其 中 RDF 以 “ 主 - 谓 - 宾 ” 三 元 组 的 模型 对 数据 进行 描述 ， 因 此 发 布 关联 数据 最 为 关 
键 的 一 步 是 如 何 将 CNMARC 格式 的 数据 转换 为 RDF 格式 ， 本 文 对 关联 数据 发 布 方式 进行 分 析 
后 ， 选 取 Drupal 平台 作为 中 文 古籍 书目 关联 化 发 布 的 技术 平台 ， 以 《关联 数据 中 CNMARC 到 
MARC21 的 映射 实现 》 中 和 《关联 数据 中 CNMARC 到 RDF 的 映射 实现 》 外 研究 的 语义 映射 为 基 
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1 关联 数据 发 布 方式 研究 

2006 年 7 月 Tim Berners-Lee 提 出 的 关联 数据 的 四 个 发 布 原则 : 

(1) 用 URI 作为 任何 事物 的 名 称 ; 

(2) H HTTP URI 使 任何 人 都 可 以 访问 这 些 名 称 ; 

(3) 有 人 访问 某 个 标识 名 称 时 ， 以 标准 的 形式 (如 RDF，SPARQL) 提供 有 用 的 信息 ; 

(4) 尽量 给 出 相关 的 URI， 方 便 人 们 可 以 找到 更 多 的 相关 的 事物 。 

遵循 关联 数据 发 布 四 原则 ， 根 据 发 布 数据 量 的 大 小 、 数 据 的 保存 方式 、 数 据 的 更 新 频率 ， 
目前 主要 有 一 系列 发 布 方式 ”: 静态 RDF 发 布 ， 适 用 于 数据 量 比较 小 的 情况 ， 数 据 创建 者 自 
己 制 作 RDF 文档 上 传 至 网 络 上 ;RDF 三 元 组 批量 存储 的 发 布 ， 适 用 于 数据 量 大 各 种 类 型 的 数 
据 的 发 布 应 用 ;关系 数据 库 的 发 布 ， 适 用 于 将 关系 数据 库存 储 的 数据 内 容 发 布 成 关联 数据 ， 
可 利用 的 工具 有 D2R、0penLink Virtuoso 或 Triplify， 基 于 现 有 应 用 程序 或 Web 
API (Application Program Interface， 应 用 程序 界面 ) 进 行 封装 的 数据 发 布 等 ， 目 前 发 布 
关联 数据 的 发 布 方式 也 一 直 在 更 新 。 但 是 在 发 布 过 程 中 ， 考 虑 到 所 用 发 布 工具 的 难 易 度 和 版 
权 ， 本 文 利用 了 最 流行 的 内 容 管理 系统 Drupal， 无 需 掌握 过 多 的 语义 技术 且 为 开源 软件 ， 
通过 内 容 模型 对 数据 进行 结构 化 表示 ， 利 用 所 包含 的 RDF 相关 模块 与 其 他 模块 实现 数据 的 
RDF 化 和 RDF 链接 ， 最 后 通过 SPARQL 模块 对 外 开放 以 便于 其 他 网 络 应 用 实现 查询 。 
2 基于 Drupal 实现 中 文 古籍 书目 数据 关联 化 的 原理 机 制 

Drupal? 是 基于 网 络 的 开源 的 一 套 内 容 管 理 系统 ， 是 一 个 在 PHP 语言 、Apache 服务 器 支 
撑 下 的 内 容 管 理 平台 ， 具 有 强大 的 网 站 开发 能 力 ， 可 以 说 是 网 站 开发 的 操作 系统 。 主 要 由 内 
核 、 模 块 、 主 题 三 部 分 架构 而 成 ， 而 Drupal 的 关联 数据 支持 功能 也 正 是 通过 这 些 模块 得 以 
实现 的 。 
Drupal 在 当初 创建 的 时 候 ， 考 虑 到 当时 已 经 存在 的 语义 网 技术 ， 就 在 其 核心 代码 中 植 入 了 
rdf. php 的 源 文 件 ， 在 关联 数据 这 个 概念 提出 以 后 ， 马 上 成 立 了 语义 网 组 ， 用 于 研究 关联 数 
据 技术 。 终 于 在 2008 年 开始 陆续 发 布 了 Drupal 6 中 支持 关联 数据 的 模块 ， 经 过 一 年 的 时 间 ， 
在 2009 年 时 ，Drupal16 通过 这 些 模块 已 经 可 以 支持 关联 数据 的 发 布 了 。 并 且 在 2011 年 发 布 
的 Drupal7 中 ， 关 联 数据 支持 模块 中 的 许多 模块 作为 Drupal 的 核心 模块 被 内 化 。 在 2015 年 
11 月 发 布 的 Drupal8 版 本 中 ， 更 进一步 并 入 了 原来 属于 扩展 模块 的 部 分 为 核心 模块 。 有 具体 
而 言 ，Drupal 与 关联 数据 发 布 相关 的 模块 具体 包括 : C) RDF 模块": 可 以 把 Drupal 站 
点 上 的 内 容 模型 转化 为 RDF 数据 模型 。 


(2) SESMOL-ARC2 (Archive2) 0 是 一 个 RDF 数据 存储 器 。 (3) RDFx™ (RDF CCK、evoc 
模块 ) : 是 RDF Extention 的 简称 ， 定 义 内 容 类 型 和 字段 、 与 RDF 的 Class 和 property 映射 。 
evoc 模块 是 External RDF vocabulary Importer 的 简称 ， 用 于 导入 外 部 元 数据 元 素 词 汇集 。 
(4) SPARQL ERU :为 查询 生成 的 RDF 数据 提供 接口 。 (5) Feeds 模块 "的 功能 是 实现 数 
据 的 批量 导入 。 〈6) Reference BEER", Link 模块 "分 别 实现 RDF 数据 的 内 部 链接 和 外 
部 链接 。 (T7) RESTful web services 模块 ”3 ;系统 默认 的 数据 格式 是 嵌 套 在 HTML 中 的 RDFa 
格式 ， 这 个 模块 提供 除了 HTML 格式 之 外 的 RPF/XML、N3、JSON 等 格式 的 数据 。 
3 基于 Drupal 的 中 文 古籍 书目 数据 的 关联 数据 发 布 

遵循 关联 数据 发 布 流程 和 Drupal 实现 关联 数据 的 原理 机 制 利 用 Drupal 平台 ， 本 文通 过 
三 步 实 现 中 文 古籍 书目 数据 的 关联 化 发 布 : 数据 建 模 、 数 据 RDF 化 、 数 据 的 WEB 发 布 与 开放 
查询 。 
3.1 数据 建 模 

数据 建 模 ， 在 这 一 步 寺 括 了 对 将 要 发 布 为 关联 数据 的 中 文 古籍 进行 实体 、 属 性 的 选择 与 
分 析 、 词 汇 表 的 选择 与 创建 、 数 据 模型 的 建立 。 
3.1.1 实体 与 属性 的 选择 、 分 析 

在 发 布 关 联 数据 之 前 ， 需 要 详细 分 析 所 发 布 的 中 文 古 籍 书目 数据 中 哪些 可 以 作为 实体 ， 
以 及 实体 的 属性 和 实体 之 间 的 关系 。 从 CNMARC 依据 的 古籍 编目 规则 所 组 成 的 书目 记录 的 扁 
平 的 层次 看 ， 可 分 成 中 文 古 籍 本 身 、 与 中 文 古籍 相关 的 责任 者 、 版 本 、 地 点 、 主 题 等 。 中 文 
古籍 本 身 的 属性 有 题名 正题 名 、 其 他 题名 )〉 、 责 任 者 、 版 本 、 出 版 地 、 出 版 商 、 出 版 时 间 、 
册 数 、 尺 寸 、 主 题 、 附 注 等 ;责任 者 实体 的 属性 有 姓名 、 字 、 号 、 籍 贯 、 朝 代 、 成 就 、 思 想 、 
流派 、 以 及 作品 等 ， 版 本 实体 的 属性 有 版 本 名 称 、 版 本 简介 、 版 本 出 处 、 其 他 名 称 、 源 流 等 ; 
出 版 地 实体 的 属性 名 称 、 有 经 度 、 纬 度 、 简 介 、 特 点 等 ; 主题 的 属性 包括 上 下 位 词 、 入 口 词 、 
优选 词 、 主 题词 对 应 的 分 类 号 等 。 
3.1.2 词汇 表 的 选择 

词汇 表 的 选择 要 根据 所 描述 实体 的 属性 进行 选择 ， 其 中 Drupal 站 点 上 被 内 化 的 元 数据 元 
素 词 汇集 有 content, dc, foaf, og, rdfs, sioc, sioct, skos, xsd 等 ， 除 了 这 些 基础 
词汇 集 ， 本 文 还 选用 bibo 本 体 、mods 本 体 、ISBD 本 体 、RDA， 通 过 evoc 模块 把 这 些 外 部 词 
汇集 进行 导入 ， 其 中 BIB0 本 体 和 ISBD 本 体 较 全 面 地 包含 了 适合 于 描述 中 文 古籍 书目 数据 的 
类 和 属性 。 

BIBO 本 体 29 ， 称 为 书目 本 体 ， 是 由 Giasson FE 和 D'Arcus B 两 人 利用 本 体 构 建 工具 


的 属性 ， 这 种 属性 在 上 下 位 类 之 间 是 可 以 传递 的 ， 所 以 类 中 最 上 位 的 类 为 Owl:Thing， 所 有 
下 位 类 有 81 个 ， 所 包含 属性 中 适合 描述 中 文 古 籍 的 也 比较 全 面 。 

ISBD 词汇 集 光 ， 国 家 标准 书目 著录 ， 对 各 类 信息 可 以 进行 描述 的 国家 标准 ，， 包 括 : 普 
通 图 书 、 连 续 性 资源 、 上 古籍 、 电 子 资源 、 非 书 资料 、 印 刷 乐 谱 、 析 出 文献 、 地 图 资料 。 在 
2011 年 由 Saur D 6 在 开放 元 数据 注册 系统 (Open Metadata Registry, OMR) 5 中 进行 了 
ISBD 元 素 和 属性 的 关联 数据 注册 服务 。 我 国 的 古籍 著录 规则 就 是 在 参考 国际 标准 书目 著录 
(古籍 ) 规则 的 基础 上 编制 而 成 的 ， 所 以 采用 ISBD 词汇 集中 的 元 素 和 属性 更 加 能 准确 地 描 
述 中 文 古 籍 书目 数据 。 

3.1.3 数据 模型 的 创建 

数据 模型 主要 以 比较 直观 的 方式 显示 对 中 文 古籍 所 涉及 的 实体 及 属性 以 及 之 间 的 关系 。 
中 文 古籍 除了 选择 责任 者 、 出 版 地 判定 其 来 源 、 真 实 性 之 外 ， 把 版 本 作为 一 个 链接 ， 是 考虑 
到 其 不 同 于 现代 书籍 的 特殊 性 ， 上 古籍 版 本 对 中 文 古籍 的 鉴别 、 评 价 至 关 重 要 ， 所 以 在 
Drupal 站 点 上 也 对 古籍 版 本 的 关联 数据 发 布 作 了 研究 ， 出 版 地 可 以 与 已 发 布 为 关联 数据 的 
GEO WE 〈 地 理 本 体 ) 进行 链接 ， 中 文 古籍 主题 信息 是 来 源 于 中 国 分 类 汉语 主题 词 表 或 汉 
语 主题 词 表 ， 深 圳 大 学 图 书馆 提供 了 中 国 分 类 汉语 主题 词 表 的 关联 数据 试用 系统 2 ， 所 以 
与 这 个 系统 进行 了 链接 ， 但 是 该 系统 目前 处 于 试用 状态 ， 外 部 并 不 能 与 之 进行 链接 ， 所 以 中 
文 古籍 主 题词 属性 选择 了 字符 串 〈URI 以 后 用 来 扩展 ) 责任 者 、 出 版 地 与 外 部 数据 进行 了 链 
接 ， 在 图 1 的 中 文 古籍 数据 模型 中 用 URI 标记 ， 版 本 部 分 是 在 Drupal 站 点 内 部 进行 的 链接 ， 
用 节点 node 标记 。 
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1 中 文 
古籍 数据 模型 
3.2 中 文 古籍 书目 数据 RDF 化 
中 文 古 籍 书目 数据 的 RDF 化 通过 CNMARC 与 RDF 的 映射 分 析 、 内 容 类 型 的 创建 和 RDF 映射 、 
数据 的 批量 导入 三 步 实 现 。 
3.2.1 中 文 古 籍 书目 数据 CNMARC 字段 与 RDF 映射 的 分 析 
关联 数据 实践 中 ， 国 外 图 书馆 机 构 在 MARC21 到 RDF 的 映射 层面 ， 积 累 了 较 丰 富 的 经 验 ， 
考虑 到 CNMARC 与 MARC21 的 记录 结构 相似 ， 仅 在 字段 描述 方面 存在 一 些 差异 ，CNMARC 元 数据 
到 RDF 的 映射 可 以 首先 考虑 CNMARC 到 MARC21 的 映射 ， 再 参照 MARC21 到 RDF 的 映射 ， 最 终 构 
建 CNMARC 到 RDF 的 映射 。 其 中 CNMARC 到 MARC21 的 映射 和 CNMARC 到 到 RDF 的 映射 分 别 在 
《关联 数据 中 的 CNMARC 到 MARC21 的 映射 实现 》 和 《关联 数据 中 的 CNMARC 到 RDF 的 映射 实 
现 》 文 中 已 进行 了 探讨 ， 所 以 在 此 不 再 进行 详 述 。 
3.2.2 内 容 类 型 的 创建 和 RDF 映射 
基于 上 述 中 文 古 籍 书目 数据 实体 属性 的 分 析 、 选 择 ， 各 字段 、 子 字段 等 与 RDF 映射 分 析 
的 基础 上 ， 在 Drupal 站 点 上 通过 CCK 模块 添加 名 称 为 “AncientBook” 的 内 容 类 型 ， 同 时 添 
加 CNMARC 中 描述 中 文 古 籍 的 字段 名 称 作为 该 内 容 类 型 的 字段 ， 由 于 站 点 有 默认 的 Title 题 
名 字段 ， 所 以 把 这 个 字段 作为 中 文 古籍 的 正题 名 字段 ， 本 文 在 站 点 添加 的 字段 有 其 他 题名 、 


合 刻 题名 、 等 同 责 任 者 、 次 要 责任 者 、 版 本 、 出 版 地 、 出 版 商 、 出 版 时 间 、 册 数 、 尺 寸 、 主 


题 、 四 库 分 类 号 等 23 个 字段 (图 2) 。 

通过 RDF CCK 模块 对 创建 的 内 容 类 型 、 字 段 名 、 字 段 类 型 与 RDF 三 元 组 中 的 主 谓 宾 进 行 
一 一 映射 。 其 中 内 容 类 型 对 应 RDF 主语 ， 通 过 RDF types 对 其 进行 类 型 的 描述 ， 字 段 集中 的 
字段 各 自 对 应 RDF 谓语 ， 与 Drupal 站 点 所 包括 的 元 数据 词汇 表 和 通过 evoc 模块 从 外 部 导入 
的 元 数据 词汇 表 对 应 ; 字段 类 型 对 应 宾语 属性 类 型 ，Drupal 站 点 规定 了 三 种 属性 类 型 ， 
property、rel、rev。 其 中 property 代表 属性 类 型 是 文本 值 〈 比 如 数字 、text XÆ, html 
文本 等 ) ， 并 且 可 以 通过 XML Schema datatypes 进一步 说 明 该 文本 值 是 什么 数据 类 型 ， 上 
如 字符 串 、 布 尔 值 、 日 期 等 ，rel 代表 属性 类 型 是 URLS; rev 代表 属性 类 型 是 节点 参照 ， 是 
站 点 内 另 一 个 节点 。 每 一 种 属性 可 以 有 多 个 取 值 。 当 利用 RDF CCK 映射 完成 之 后 ， 系 统 就 会 
利用 RDF 模块 自动 生成 该 新 建 内 容 模型 的 本 地 RDFS 词汇 表 。 

考虑 到 责任 者 对 考察 古籍 的 重要 性 和 中 文 名 称 规范 文档 还 未 发 布 为 关联 数据 ， 新 建 了 一 
个 内 容 类 型 “person”， 建 立 姓 名 、 简 介 、 朝 代 、 生 卒 、 作 品 、 朋 友 等 字段 ， 利 用 foaf 本 
体 和 time 本 体 [中 进行 RDF MAPPINGS. 

中 文 古籍 版 本 对 考证 古籍 价值 和 真 伪 的 重要 性 ， 我 国 目前 缺乏 古籍 版 本 本 体 ， 所 以 在 
Drupal 站 点 上 新 建 了 一 个 名 称 为 “edition” 上 古籍 版 本 内 容 类 型 ， 按 照 中 国 分 类 主题 词 表 第 
二 版 的 “版 本 ”主题 词 间 的 关系 ， 选 取 属 性 题名 、 摘 要 、 上 位 词 、 下 位 词 、 中 图 法 分 类 号 
参见 、 来 源 词 表 、 源 流 、 入 口 词 〈 非 优选 词 》 、 族 首 词 、 优 选 词 作为 字段 。 


LABEL MACHINE NAME FIELD TYPE WIDGET. OPERATIONS 
Title title Node module element 


- ”其 他 题名 field_altnative Text Text field edit delet 
合 刻 / 合 订 题名 field. relation Text Text field edit delet 
“等 同 责任 者 field_creator Node reference edit — del 
次 要 责任 者 field_contributor ode edit — dele 
- 版 本 ode r edit — dele! 
出 版 地 Link Link edit dele 
” 出 版 商 Text Text field edit — dele 
-出 版 时 间 field. date Text Text field edit delet 
mix field volume Text Text field edit delete 
= ger field extent Text Text field edit delete 
” 主题 field_subject Text Text field edit — del 
-四 部 分 类 号 field classification Text Text field edit del 
Mg field is part of Node reference Check boxes /radio buttons edit delete 
- ”附属 从 编 题名 field_has_part_of Node reference Check boxes /radio buttons edi del 
-一 般 性 附注 field_note Text Text field edit — del 
-装订 形式 field_binding Text Text field edit del 


图 2 Drupal 站 点 创建 的 AncientBook 内 容 类 型 与 字段 
3. 2. 3 节点 数据 的 批量 导入 
完成 内 容 类 型 创建 和 RDF 映射 之 后 ， 就 可 以 根据 建立 的 这 个 数据 模型 为 每 一 条 中 文 古籍 


书目 数据 创建 实例 ， 生 成 节点 。 创 建 节点 时 ， 可 以 单个 节点 的 创建 ， 也 可 以 通过 Drupal 的 
Feeds 模块 ”批量 导入 数据 。 可 以 导入 数据 的 格式 有 txt. csv. tsv. xml. opml 五 种 格式 。 
但 又 以 CSV 格 式 的 数据 导入 最 为 应 用 的 比较 多 ， 本 文选 取 了 从 CALIS 联合 公共 目录 检索 系统 
的 “古籍 四 部 类 目 浏 览 ”"3 下 载 了 100 条 文本 格式 的 UTF-8 编码 的 中 文 古 籍 书 目 数据 进行 处 
HER CSV 文件 进行 导入 。 具 体 实现 过 程 如 下 : 

(1) Feeds 的 设置 

在 Feeds importers 页 面 进行 基本 设置 、 提 取 器 、 解 析 器 、 处 理 器 的 设置 。 

基本 设置 不 用 修改 ， 按 系统 默认 的 方式 ; 提取 器 有 文件 上 传 和 网 络 抓 取 两 种 ， 选 择 File 
upload (文件 上 传 ) ; 解析 器 有 Common syndication parser, CSV parser, OPML parser 


. Sitemap parser 四 种 ， 选 择 CSV parser; 处 理 器 Node processor. Taxonomy term 


processor. User processor 三 种 ， 选 择 Node processor， 并 对 Node processor 进行 设置 
Bundle 设置 〈 绑 定 对 象 ， 选 择 AncientBookO 和 映射 ， 这 里 的 映射 是 source 5j Target 之 间 
的 映射 ， 指 所 上 传 的 CSV 文件 的 字段 名 和 Bundle 绑 定 的 对 象 AncientBook 内 容 类 型 所 创建 


2> EL i O Z] U EE 人 > B 进行 IHE 
J 子 上 友之 旧 E UR 3。 前 对 从 CALIS x 过 人 o 
import ancient books bibli EDIT | EXPORT | CLONE | DELETE | TAMPER 
mi 
elp 
le item of a feed (= Sources) map to which content pieces in Drupal (= Targets). Make sure that at least one definition h t 
for a target E ne item with the URL herp-//example.com/comtent/] can exist 
Show row weights 
TARGET 
SOURCE ROET CONFIGURATION 
Not used as unique 
题名 200Sa Title (title) Remove 
其 他 题名 517Sa 其 他 题名 (field_altnative) Remove 
合 刻 题名 423Sa 合 刻 / 合 订 题名 (field relation ) Remove 
等 同 责任 者 7015a 等 同 责任 者 (Node reference by node title) (field_creator-title) Remove 
” ”次 要 责任 702Sa 次 要 责任 者 (Node reference by node title) (field contributor-title) Remove 
< 版 本 (205Sa) 版 本 (Node reference by node title) (field edition-title) Remove 
” 出 版 地 (210Sa) 出 版 地 : URL (field. publicationplace-url D] Remove 
:出 版 商 210Sc 出 版 商 (field publisher) Remove 
”出 版 时 间 210Sd 出 版 时 间 (field date) Remove 
ange 
to 册 数 215Sa Mät (field volume) Remove 
rocessor 
: 尺寸 215Sd RF (field extent) Remove 
ings 

ing :主题 606Sa X (field subject Remove 
processor 四 部 分 类 县 696Sa TRAKS (field classification) Remove 


图 3 CSV 文件 字段 与 AncientBook 字段 映射 
(2) 数据 预 处 理 
将 数据 处 理 成 符合 格式 的 CSV 文件 。 以 Excel 格式 打开 下 载 的 数据 ， 由 于 每 一 条 数据 的 
字段 不 尽 相 同 ， 所 以 在 EXCEL 表格 中 将 下 载 的 数据 分 解 与 提取 成 与 Drupal 所 建 的 
“AncientBook” 内 容 类 型 下 创建 的 相同 的 字段 ， 并 保存 为 CSV 文件 。 成 与 Drupal 生成 CSV 
文件 ， 除 了 以 上 字段 的 处 理 ， 还 有 数据 内 部 的 处 理 ， 主 要 针对 多 值 字 段 和 链接 处 理 。 针 对 多 
值 问题 可 以 通过 Feeds Tamper 模块 9 来 处 理 ， 这 个 模块 有 许多 插件 ， 通 过 图 3 中 右上 角 的 
Temper 给 多 值 字 段 添加 “Explode” 揪 件 ， 这 个 插件 默认 的 多 个 值 之 间 用 英文 半角 的 有 逗号 隔 
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开 ， 需 要 安装 此 插件 的 字段 有 : “其 他 题名 517$a > 其 他 题名 、 次 要 责任 者 702$a -> 次 要 


责任 者 、 附 属 从 编 411$a > 附属 从 编 题名 ”三 个 字段。 

针对 链接 问题 ， 如 果 是 节点 参照 (node reference) 内 部 链接 ， 只 需 在 CSV 文件 中 填写 
字符 串 ， 在 映射 时 映射 为 (Node reference by node title) (field-X) , 只 要 在 导入 文件 前 
导入 被 参照 的 节点 即 可 ;如果 是 外 部 链接 ， 需 要 在 映射 时 则 时 映射 为 title 和 URI 两 种 ， 在 
CSV 文件 中 设置 两 列 相 应 的 字段 ， 一 列 为 取 值 为 title， 一 列 取 值 为 对 应 的 URI， 如 本 文 的 出 
版 地 就 是 如 此 设置 ， 两 列 字段 名 都 取 为 出 版 地 210$a， 一 个 取 值 为 具体 的 地 名 ， 另 一 列 取 值 
为 从 GEO 本 体 中 对 应 的 URI。 

(3) 数据 的 批量 导入 

经 过 Feeds 设置 和 数据 预 处 理 之 后 就 可 以 导入 数据 了 ， 在 导入 数据 时 ， 需 要 自 定义 代码 ， 
在 wamp/www/drupal7/sites/all/modules 下 定义 一 个 文件 来， 本 文 命名 为 sem, 在 其 中 创建 
sem. module 和 sem. info 两 个 文件 ， 在 sem. module 编写 代 图 4 的 代码 ;在 图 3 右上 角 点 击 
EXPORT， 复 制 Feeds 映射 生成 的 代码 ， 在 图 4 中 进行 粘贴 。 在 Feeds importer 页 面 点 击 中 
间 的 import 即 可 选择 “import ancient books bibliography data” 进 行 CSV 格式 的 数据 
导入 。 


function sem feeds importer default() {+ 


/性 处 粘贴 生成 的 代码 。 


+ 


在 上 图 代码 之 外 添加 以 下 两 行 ， 
Sexport[import. ancient. books bibliography data] = Sfeeds importer.- 
retum Sexport;- 
je 
function sem. ctools plugin api(Sowner. Sapi) (^ 
if (Sowner — "feeds && Sapi — "feeds importer. default) {+ 
retum arrav( version — 1);« 


e 


图 4 导入 节点 数据 代码 
3.3 数据 的 Web 发 布 与 开放 查询 
通过 上 述 中 文 古籍 书目 数据 的 RDF 化 和 RDF 链接， 系统 会 自动 为 创建 的 中 文 古籍 节点 生 
成 各 种 格式 (N3, RDF/XML, Turtle 等 ) 的 三 元 组 RDF 数据 。 通 过 SPARQL endpoint 终端 的 
SPARQL 查询 语句 查询 用 户 所 需要 的 数据 或 选用 安装 了 Tabulator Extension 插件 的 Firefox 
浏览 器 直接 查看 RDF 数据 。 
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3.3.1 数据 的 SPARQL 查询 
一 种 通过 SPARQL 查询 语法 对 生成 的 RDF 数据 进行 查看 ，Drupal 站 点 安装 了 SPARQL 


endpoint 模块 ， 同 时 必须 配合 SESMOL-ARC2 模块 存储 三 元 组 来 使 用 ， 图 5 为 Drupal 站 点 提 


供 的 SPARQL endpoint 查询 页 面 查询 所 得 的 数据 。 查 询 时 必须 先 对 码 询 用 到 的 词汇 表 进 和 
现 声 明 ， 查 询 语句 格式 必须 与 RDF 语句 一 致 。 右 侧 可 选择 得 询 结果 的 输出 方式 ， 包 括 
XML, JSON, Plain, Serialized PHP. Turtle, RDF/XML. Query Struture、HTML 
Table, TSV 格式。 


ARC SPARQL- Endpoint (v2011-12-01) 


This interface implements SPARQL and SPARQL- via HTTP Bindings. 


Enabled operations: select, construct, ask, describe, load, insert, delete, dump 


Max. number of results : 500 


fix skos: http://www. w3. org/2004/02/ skos/ cores? 


Options 
SELECT * WHERE 
GRAPH ?g { ?s skos:notation ?o. } Output format (if supported by query 
LIMIT zl HTML Table 


jsonp/callback (for JSON results) 


API key (if required) 


Show results inline: 


Change HTTP method: GET POST 
Send Query || Reset 


g s o 
http://localhost/drupaU /node/12 http:/ /localhost/drupaU/node/12 
http://localhost/drupa/node/13 http:// lhost/drupal7/node/13 


st/drupal7 /node/4 http:// / drupal7/node/4 G256.2 


k 

l 
ost/drupaU /node/8 http:/ /li rupal7/node/8 G256.2 
/ drupal7/content/XE7X89x8BSE6:9CXAC http:/ /li ost/drupal / ent/XE7x89x88xE6X9CXAC G256.2 
ost/drupaU//content/XE5388SBBXE6X9CSAC http://localhost/drupal7/content/XE5x88:BBXE6X9CXAC G256.2 
calhost/drupal7 /node/5 http://localhost/drupaU/node/5 G256.22 
ost/drupal//node/9 http://localhost/drupaU7/node/9 G256.22 


图 5 SPARQL 查询 图 


3.3.2 语义 浏览 器 查看 RDF 数据 

第 三 种 通过 语义 浏览 器 查看 生成 的 RDF 数据。 本 文 下 载 了 Firefox3. 6. 18 中 文 版 ， 
Tabulator Extension 0. 87 版 本 ; 通过 设置 火狐 浏览 器 “工具 -Data browser---make 
Firefox request RDF”。 如 果 是 通过 Firefox 直接 查看 ， 只 需 在 每 个 节点 的 后 面 添加 
“. rdf” 即 可 得 到 所 需要 的 RDF 数据 ， 输 出 的 数据 格式 包括 N3 格式 、RDF/XML 格式 等 。 
6、 图 7 分 别 为 对 Drupal 站 点 上 节点 “本 草 述 : 三 十 二 卷 , 卷首 , [一 卷 ]” 所 生成 的 
RDF/XML、N3 格式 的 数据 。 


TX 
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Ern aar 
Yhttp://1localhost/drupal7/node/27. rdf (à E a a4 (E 


&rdf:RDF 

xnlns:rdf-"http:/ inr. w3. 0rg/1999/02/22-rdf-syntax-nsit^" 

xnlns:isbd-"http://iflastandards.info/ns/isbd/elements/" 

xnlns:terms-^http://purl. org/dc/ternms/^ 

xnlns:bibo-"http://purl. org/ontology/bibo/" 

xnlns:sioc-^http://rdfs. org/sioc/nst"» 

<rdf :Description rdf:about-"http://localhost/drupalT/node/27"» 

“isbd:P1037> 有 墨 笔 眉 批 附注 AHS: 漆 江 划 云 密 先 生 著 。 本 籼 述 。 嘉庆 庚午 还 读 山 房 校 苇 ; AHBAR : AA 
《isbd:P1040> 板 框 19.。1x14， 10 行 20 字 ， DFFA, AO, RAR, 左右 色 亡 </isbd:P1040> 
<isbd:P1068></isbd:P1068> 
《isbd:P1078> 线 装 《/isbd:P1078> 
<isbd:P1087></isbd:P1087> 
<terms:created>2016-03-03T16:42:20+08:00</terms:created> 
<terms :creator rdf:resource="http://localhost/drupal?/node/26" /> 
<terms:date>2016-03-03T16:42:20+08:00</terms:date> 
Xterns:extent?25cm(/terms:extent? 
《terms :issued>》 清 光绪 两 子 [ 二 年 , 1876] «/terns:issued? 
Xterns:nmodified»2016-03-03T16:42:20*08:00X/terms :modified> 
《terms :publisher》 来 青 效 </terms :publisher> 
《<terms :subject》 中 药学 -- 本 草 一 中 国 《/terms:subject> 
《terms :subject>》 子 部 , 医家 类 , 本 草 之 属 《//terms :subject> 
《terms :tit1e> 本 草 述 : 三 十 二 卷 , 卷首 , [一 卷 ] </terns:title> 
<bibo:amotates> 卷 七 至 九 分 上 、 下 卷 .《Abibo:annotates> 
<bibo:annotates> 有 墨 笔 眉 批 (Abibo:annotates> 
<bibo:edition rdf:resource="http://localhost/drupalT/content/X%E5%88%BB%E6%9C%AC”/> 
Xbibo:volume?24fH4/bibo:volume? 
Xsioc:num repnlies?0C/sioc:num replies? 


A 6 RDF/XML 数据 查看 


m m -" 
"http: //localhost/drupalT/node/2T. rdf Q 3 4 (4 m 


prefix isbd: (http: //if lastandards, info/ns/isbd/elenents/?. 
üprefix terms: (http: //pur]. org/dc/terns/^. 

prefix bibo: http: //purl. org/ontology/bibo/^. 

prefix sioc: (http: //rdfs, org/sioc/nst?. 


QD 
isbd:P1037 
“Wu6709\u58a8Vu7b46\u7709\u6279 \Vu9644\u6ce8\tVu5167Vu5c0lVu942b \uffla Vu6f5bVu6c5fVu5289Vug6f2Vu5bo6Vu5148Vu751fVu8457\u3002 \u672cVu8278\u8ffOVu3002 \u5609\u6176\u5egau5348\u90E 
isbd:P1040 
"Nu6TT£ Nu684619.. 1x14\uff0c 10\Vu884c20\u5b57\uff0c \u5cOfVu5b57\u96d9\u88dcVu540cVu5927\Vu5b57\VuffOc Wu767dvu53e3VuffOc Vu55aeVugedlVugb5avu5cSevuff0c Vu5de6\u53f3\Vu96d9Vu908a ; 
isbd:P1068 


isbd:P10T8 
“Wuydabvu88dd ; 


terns:created 
72016-03-03716:42: 20408:00" ; Q T 
terns:creator + ks 
Q8; * —— 
terns: date 

72016-03-03716:42: 20408:00" ; 
terns:extent 

^25cn' ; 
terns:issued 

“\Wu6e05\u5149Vu7dd2Vu4el9Vu5b50[\Vude8cVu5e74, 1876] ; 
terns:nodified 

'2016-03-03716:54:49408:00"; 
terns:publisher 

“udf86Vu9752\u95a3 ; 
terns:subject 

“\ude2d\u85e5\u5b78 -- \u8T2c\u8349 -— \ude2d\u570b", 

MnRhRO BOR. WMOTah\nAhhA MARRA. Wo T2 WR dO ded h firi 


图 7 N3 格式 的 数据 查看 
4 结语 
本 文 对 我 国 特有 的 以 CNMARC 格式 编目 的 中 文 古籍 书目 数据 的 关联 数据 化 进行 了 研究 ， 通 

iX Drupal 软件 实现 了 中 文 古 籍 数据 书目 数据 的 关联 化 发 布 ， 但 是 也 存在 着 一 些 问 题 : 

C) 本 文 所 建 的 Drupal 站 点 只 是 一 个 基于 本 地 位 置 的 小 型 试验 站 点 ， 不 能 对 外 开放 。 

(2) 链接 方面 : Drupal 站 点 上 所 创建 的 节点 与 外 部 的 链接 过 少 ， 这 是 由 于 我 国 目前 发 
布 为 关联 数据 的 资源 过 少 ， 只 能 在 本 地 站 点 通过 自 建 别 的 内 容 类 型 来 创建 节点 用 以 实现 节点 
之 间 的 关联 。 所 以 应 该 发 布 更 多 的 与 中 文 古 籍 相 关 的 资源 为 关联 数据 ， 比 如 对 鉴定 古籍 源流 


据 的 发 布 等 。 并 且 在 进行 链接 时 也 是 进行 的 手动 链接 ， 这 种 情况 针对 的 是 小 部 分 数据 ， 针 对 
大 量 数据 ， 必 须 配 合 其 他 链接 工具 或 软件 实现 数据 之 间 的 自动 链接 。 

(3) RDF 三 元 组 存储 方面 : SESMOL-ARC2 这 个 模块 不 适用 于 大 型 站 点 ， 因 为 RDF 索引 比 
较 耗 时 。 所 以 在 RDF 三 元 组 存储 方面 ， 针 对 大 量 的 数据 ， 选 用 内 存 较 大 的 三 元 组 存储 器 比较 
合适 。 

(4) 如 何 把 所 发 布 的 数据 进行 可 视 化 是 一 个 关联 数据 的 一 个 研究 热点 ， 而 如 何 把 
Drupal 平台 上 发 布 的 数据 通过 可 视 化 进行 直观 的 显示 ， 方 便 用 户 更 好 的 理解 ， 进 而 实现 基 
于 Drupal 平台 发 布 关联 数据 的 可 视 化 。 
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Research on Publishing Chinese ancient books bibliographic data to Linked 
Data 
Bai Linlin' Zhu Zhongming? 
'National Science Library, Chinese Academy of Sciences, Beijing, 100190 
?Lanzhou Library, Chinese Academy of Sciences, Lanzhou, 730000 
Abstract: [Purpose/significance] This article did a research on publishing 
Chinese ancient bibliographic data cataloged in CNMARC format to linked data in 
order to promote open utilization of Chinese ancient books. [Method/process] The 
process of publishing ancient Chinese bibliographic data as Linked Data is 
realized by using Drupal platform from data modeling, data mapping, data linking 
and external querying. [Result/conclusion] Publishing ancient Chinese 
bibliographic data as Linked Data can be easily realized through Drupal 
platform, but there also exists imperfection linking so that further improvement 
of Drupal functions and use of other link tools. 
Keywords : Chinese ancient books; bibliographic data; linked data; Drupal; 
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